🔴Как системно оценить качество предобработанных данных перед обучением большой языковой модели (LLM)
Перед тем как запускать дорогостоящий процесс обучения LLM, важно убедиться, что ваши данные чисты, релевантны и структурированы.
Оценка должна включать как количественные, так и качественные метрики.
➡️Количественные метрики:
😶Распределение токенов Проверьте, не доминируют ли специальные токены, мусорные фрагменты или нерелевантные конструкции. Ожидаемые токены (например, ключевые слова доменной области) должны иметь разумную частоту.
😶Покрытие словаря Оцените, насколько хорошо охвачены часто встречающиеся слова и сабворды в вашей предметной области. Можно использовать частотный анализ на корпусе.
😶Статистика по длине документов Сравните среднюю и медианную длину документов с ожидаемыми значениями. Аномально короткие или длинные тексты могут быть ошибками разметки или дубликатами.
😶Языковое распределение В мультиязычном корпусе важно убедиться, что каждый язык представлен в правильной пропорции. Используйте модель определения языка (например, fastText или langid.py).
➡️Качественные проверки:
😶Ручная выборка документов Просмотрите случайные примеры: содержимое должно быть осмысленным, без мусора, персональных данных или несоответствий тематике.
😶Проверка дубликатов и шаблонов Автоматически найдите повторяющиеся документы или шаблонные страницы (например, элементы веб-навигации).
😶Оценка перплексии на тестовой модели Можно применить небольшую предварительно обученную LLM к данным, чтобы вычислить перплексию. Высокая перплексия может сигнализировать о шуме или нерелевантности.
😶Автоматическое обнаружение аномалий Используйте кластеризацию или модели выявления аномалий, чтобы найти подозрительные группы документов.
🔴Как системно оценить качество предобработанных данных перед обучением большой языковой модели (LLM)
Перед тем как запускать дорогостоящий процесс обучения LLM, важно убедиться, что ваши данные чисты, релевантны и структурированы.
Оценка должна включать как количественные, так и качественные метрики.
➡️Количественные метрики:
😶Распределение токенов Проверьте, не доминируют ли специальные токены, мусорные фрагменты или нерелевантные конструкции. Ожидаемые токены (например, ключевые слова доменной области) должны иметь разумную частоту.
😶Покрытие словаря Оцените, насколько хорошо охвачены часто встречающиеся слова и сабворды в вашей предметной области. Можно использовать частотный анализ на корпусе.
😶Статистика по длине документов Сравните среднюю и медианную длину документов с ожидаемыми значениями. Аномально короткие или длинные тексты могут быть ошибками разметки или дубликатами.
😶Языковое распределение В мультиязычном корпусе важно убедиться, что каждый язык представлен в правильной пропорции. Используйте модель определения языка (например, fastText или langid.py).
➡️Качественные проверки:
😶Ручная выборка документов Просмотрите случайные примеры: содержимое должно быть осмысленным, без мусора, персональных данных или несоответствий тематике.
😶Проверка дубликатов и шаблонов Автоматически найдите повторяющиеся документы или шаблонные страницы (например, элементы веб-навигации).
😶Оценка перплексии на тестовой модели Можно применить небольшую предварительно обученную LLM к данным, чтобы вычислить перплексию. Высокая перплексия может сигнализировать о шуме или нерелевантности.
😶Автоматическое обнаружение аномалий Используйте кластеризацию или модели выявления аномалий, чтобы найти подозрительные группы документов.
Telegram has made it easier for its users to communicate, as it has introduced a feature that allows more than 200,000 users in a group chat. However, if the users in a group chat move past 200,000, it changes into "Broadcast Group", but the feature comes with a restriction. Groups with close to 200k members can be converted to a Broadcast Group that allows unlimited members. Only admins can post in Broadcast Groups, but everyone can read along and participate in group Voice Chats," Telegram added.
To pay the bills, Mr. Durov is issuing investors $1 billion to $1.5 billion of company debt, with the promise of discounted equity if the company eventually goes public, the people briefed on the plans said. He has also announced plans to start selling ads in public Telegram channels as soon as later this year, as well as offering other premium services for businesses and users.
Библиотека собеса по Data Science | вопросы с собеседований from it